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3E 要 : 高 性 能 计算 机 体系 结构 的 复杂 性 对 使 用 者 提出 了 更 高 要 求 ， 而 且 在 工程 实际 和 科学 实验 中 ， 通 常 需要 使 用 多 
种 应 用 软件 相互 协作 才能 解决 复杂 问题 。 围 绕 超 算 资源 的 易 用 性 和 多 类 软件 的 集成 以 及 协作 需求 ， 开 发 了 超 算 环境 下 
的 科学 工作 流 应 用 平台 ， 设 计 了 异步 并 发 的 流程 执行 引擎 ， 采 取 调 度 算 法 和 调度 器 、 引 擎 相 分 离 的 设计 策略 ， 给 出 了 
资源 调度 方案 。 提 出 了 局 部 资源 池 化 技术 和 资源 预约 算法 ， 并 比较 分 析 了 五 种 常用 调度 算法 的 性 能 ， 给 出 了 算法 选择 
的 建议 。 实 际 应 用 表明 设计 的 引擎 能 够 支撑 复杂 工作 流 的 灵活 执行 方式 ， 给 出 的 资源 调度 方案 能 够 满足 超 算 环境 下 工 
作 流 应 用 的 高 效 执行 。 
关键 词 : 科学 工作 流 ; 高 性 能 计算 ; 资源 调度 ; 工作 流 引 擎 

中 图 分 类 号 : TP301 doi: 10.3969/j.issn.1001-3695.2018.05.0263 


Engine design and resource scheduling of scientific workflow 
application platform in supercomputing 


Li Yufeng!, Mo Zeyao'?, Xiao Yonghao!, Zhao Shicao!, Duan Bowen! 
(1. Institute of Computer Application, Chinese Academy of Engineering Physics, Mianyang Sichuan 621900, China; 2. 
Institute of Applied Physics &Computational Mathematics, Beijing 100094, China) 


Abstract: The rapid development of HPC hardware gave rise to high complexity of high performance computer hierarchy, 
which made it hard for users to make full use of HPC resources. In general, lots of software need to be cooperated together for 
particular object in scientific experiments and engineering domains. This paper described a new scientific workflow 
application platform in HPC environment. This platform contained an engine with high concurrency and asynchronous 
framework to process workflow application. Scheduler, planner and engine were decoupled from each other, which allowed 
that the three components can develop independently: scheduler for scheduling algorithms implementation, planner for 
collecting the Scheduling information and engine for workflow driver. Scheduler and planner used resource advance 
reservation and local pooling mechanism to increase the performance of workflow execution. This paper also implemented and 
compared five scheduling algorithms as to their performance on testing graph set, and got some useful advices of algorithm 
selection. Real application show that engine can support various execution strategies and resource scheduling solution can help 
increase efficiency of workflow execution in supercomputing environment. 
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了 解决 一 个 实际 问题 ， 通 常 需 要 使 用 一 系列 相关 软件 ， 典 型 的 
流程 是 建 模 、 模 拟 、 可 视 分 析 ， 它 们 之 间 可 能 有 数据 的 依赖 关 
数值 模拟 在 科学 实验 或 者 工程 实际 中 发 挥 着 重要 作用 。 随 R, 这 些 软件 相互 协作 才能 给 出 最 终结 果 。2015 年 美国 发 布 了 
着 高 性 能 计算 机 的 快速 发 展 ， 复 杂 异 构 体系 结构 成 为 主流 ， 如 ”创建 国家 级 战略 计算 发 展 规划 (NSCI)〉 总 统 令 外 ,其 中 明确 要 
TOP50001 排 名 前 列 的 并 行 机 均 使 用 了 各 种 加 速 设备 和 多 套 集 ”完成 的 第 三 个 目标 就 是 提升 用 于 实现 建 模 与 模拟 以 及 数据 分 析 
群 系统 。 在 开发 软件 时 ， 需 要 开发 者 考虑 多 级 撕 套 并 行 和 能 计算 所 需 之 各 类 技术 基础 之 间 的 连贯 性 。 科 学 工作 流 是 解决 此 
问题 。 在 使 用 HPC 应 用 软件 时 ， 仍 然 需要 用 户 熟 悉 计 算 环 境 ， 类 问题 的 关键 技术 之 一 ， 在 超 算 环境 中 ， 利 用 科学 工作 流 技术 
才能 更 好 地 结合 软 硬 件 的 优势 。 在 科学 发 现 和 工程 实际 中 ， 为 ”将 超 算 资源 环境 透明 化 ， 为 用 户 屏蔽 作业 投递 和 数据 管理 等 细 
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节 ， 并 提供 简捷 的 流程 组 装 和 运行 界面 ， 能 极 大 地 促进 超 算 环 在 科学 工作 流 的 应 用 过 程 中 ， 一 般 分 为 静态 的 编排 阶段 和 
境 和 应 用 软件 的 协同 发 展 。 动态 的 运行 阶段 。 编 排 阶段 解决 工作 流 的 用 户 自 定义 问题 ， 包 

科学 工作 流 是 在 复杂 科研 过 程 中 ， 对 数据 收集 、 处 理 、 分 “，” 括 流 程 编辑 , 组 件 属性 编辑 等 ; 运行 阶段 包括 执行 工作 流 引 擎 ， 
析 和 可 视 化 等 步骤 进行 按 需 组 合 ， 并 进行 服务 选择 和 资源 映射 ”驱动 流程 运行 , 以 及 组 件 任务 在 HPC 资源 上 的 调度 和 任务 状态 
匹配 ， 自 动 在 分 布 式 异 构 资 源 环 境 下 按照 自 定义 逻辑 关系 顺序 。 监控 等 。 本 文 重点 阐述 运行 阶段 工作 流 引擎 的 设计 和 资源 调度 
进行 执行 的 流程 。 肖 飞 等 人 中 将 工作 流 的 发 展 分 为 三 个 阶段 : 方案 。 


以 集成 化 软件 包 为 主要 体现 的 萌芽 期 、 商 业 工作 流 、 科 学 工作 
流 。 科 学 工作 流 区 别 于 传统 的 业务 工作 流 的 特点 主要 是 其 流程 
复杂 ， 面 向 数据 ， 且 要 具有 动态 适应 性 。 国 内 外 已 经 出 现 了 很 ”1.1 HSWAP 简介 


1 HPC 科学 工作 流 应 用 平台 HSWAP 


多 工作 流 平台 ,比如 美国 加 州 大 学 研究 者 开发 的 Kepler! £5 Zi, HSWAP 是 中 国 工程 物理 研究 院 计算 机 应 用 研究 所 超 算 应 
该 系统 起 源 于 2002 年 ， 基 于 加 州 大 学 伯克利 分 校 的 PtolemyIT 用 团队 开发 的 超 算 连 贯 性 计算 平台 , 旨 在 HPC 环境 中 使 用 科 沪 
系统 开发 。Kepler 是 一 个 活跃 的 开源 项 目 ， 目 前 已 发 布 2.5 版 。 ”工作 流 技术 提供 集成 的 超 算 服 务 模式 助力 科研 人 员 提 高 工作 效 


包括 生态 学 、 分 子 生物 学 、 化 学 、 计 算 机 科学 、 电 子 工 程 和 海 。 率 。 在 科学 工作 流 中 ， 一 个 作业 是 指 一 个 完整 流程 ， 一 个 作业 
洋 学 等 领域 在 内 的 很 多 研究 者 对 Kepler 做 出 了 贡献 。 美 国 南 加 若干 任务 组 成 ， 每 个 任务 在 HSWAP 中 被 封装 为 一 个 执行 组 
州 大 学 (CUSCO 信息 科学 研究 所 〈ISI) 开发 的 系统 PegasusPl, 牛 ， 代 表 一 个 建 模 、 模 拟 或 可 视 分 析 的 任务 。 组 件 可 以 由 用 户 
v ”可 以 将 抽象 工作 流 映 射 到 具体 执行 环境 中 并 执行 ， 提 供 的 技术 。” 自 定义 属性 ， 比 如 输入 输出 设 定 等 。 组 件 之 间 可 以 有 数据 的 依 
^ 。 可 以 将 工作 流 部 署 到 不 同 的 环境 下 : 包括 桌面 环境 、 校园 集群 ， 赖 关 系 。 流程 可 以 用 有 向 无 环 图 DAG 来 表示 ， 记 为 G=(V.B): 
网 格 和 云 。 截 止 2018 年 5 月 ， 发 布 最 新 版 本 4.8.2， 该 系统 已 。 其 中 V 表示 任务 组 件 的 集合 ，E 表示 任务 结 点 的 依赖 关系 集 
应 用 在 LIGO 项 目 中 辅助 引力 波 探测 分 析 。Tavernalg 是 英国 曼 。 合 ， 有 向 边 表示 任务 间 的 依赖 关系 ， 边 起 点 任务 称 为 终点 任务 


切 斯 特大 学 计算 机 科学 学 院 开 发 的 工作 流 套 件 , 起 源 于 myGrid 的 前 序 任 务 结 点 ， 边 终点 任务 称 为 起 点 任务 的 后 继任 务 结 点 。 
联盟 ，myGrid 由 在 实现 e-Science 和 e-Laboratoies， 由 多 个 组 HSWAP 的 界面 如 图 1 所 示 ， 界 面 左 侧 展示 组 件 库 ， 通 过 
织 合作 ， 并 发 起 了 很 多 项 目 ， 为 科学 家 进行 电子 化 科研 提供 很 拖 放 的 方式 在 流程 图 中 添加 实例 ， 界 面 右 侧 为 流程 编排 与 展示 
多 实用 工具 , 很 多 已 经 广泛 应 用 于 生物 科学 、 社 会 科学 、 化 学 ， 区 ， 通 过 拖 搜 方式 添加 组 件 实 例 ， 双 击 鼠 标 编辑 组 件 属性 ， 以 


天 文学 、 音 乐 以 及 多 媒体 等 领域 。Taverna 是 其 中 一 个 工具 , 用 鼠标 进行 组 件 间 划 线 定义 组 件 的 依赖 关系 。 在 顶部 配 有 控制 运 
来 设计 、 编 辑 、 执 行 科学 工作 流 。 它 将 分 布 式 网 络 服务 和 本 地 ” 行 的 按钮 ， 在 运行 阶段 ， 可 以 不 同 颜 色 展 示 运 行 状态 。 切 换 到 
工具 进行 管道 式 组 装 以 便 完成 复杂 分 析 过 程 。 不 仅 可 以 本 地 桌 。 ”应 用 标签 页 时 可 实时 与 组 件 应 用 图 形 界面 进行 交互 。 


面 环境 执行 ， 还 可 以 在 大 型 基础 设施 如 超 算 环境 ， 网 格 和 云 计 1 
算 环 境 上 执行 。 全 世界 包括 学 术 的 和 商业 的 350 多 个 组 织 在 使 网 一 
用 Taverna， 为 他 们 的 创新 研究 加 速 。 王 红 霞 中 基于 GT4 网 格 l z ou 
环境 设计 了 工作 流 引擎 ， 但 关注 点 在 网 格 服务 及 其 协作 关系 ， FERA 
非 本 文 关注 的 科学 工作 流 系 统 。 沈 瑜 等 人 四 设计 和 实现 了 一 Li fa 
种 高 性 能 资源 统一 管理 系统 ， 关 注 于 多 套 高 性 能 资源 的 统一 管 
理 和 审计 ， 其 中 针对 用 户 的 资源 预 分 配 和 定时 审计 机 制 能 更 充 
分 利用 资源 ， 本 文 提出 针对 工作 流 的 资源 预约 和 池 化 策略 能 更 J1 HSWAP 的 界面 
好 的 满足 工作 流 应 用 的 高 效 执行 需求 。 1.2 HSWAP 的 架构 设计 
已 有 的 科学 工作 流 系统 普遍 存在 的 问题 有 : 任务 粒度 太 细 ， 为 支撑 不 同 领域 的 数值 模拟 服务 和 产品 设计 流程 ， 集 成 各 
甚至 简单 的 排序 和 代数 运算 都 被 设置 成 组 件 ， 造 成 使 用 繁 瑞 、 ”类 应 用 场景 的 应 用 技术 共性 ， 设 计 的 HSWAP 整体 架构 如 图 2 


复杂 ; 对 底层 系统 的 配置 复杂 ， 造 成 部 署 代 价 高 ; 大 部 分 工作 ”所 示 。 采 用 B/S 模式 实现 ， 用 户 端 只 需要 有 网 页 浏览 器 即 可 使 
流 运行 依赖 运行 系统 的 调度 方法 ， 没 有 针对 流程 的 调度 策略 ， 用 该 平台 ， 有 具体 的 业务 逻辑 在 服务 器 端 实现 。 部 署 十 分 便捷 ， 
造成 调度 效率 低 只 需 部 署 一 份 服务 器 端 平台 软件 而 无 须 部 署 客户 端 ， 即 可 以 多 
中 国 工程 物理 研究 院 计 算 机 应 用 研究 所 的 HSWAP 平台 以 ” 用 户 同时 使 用 。 

高 性 能 应 用 软件 作为 组 件 封装 的 基本 单位 ， 配 置 简单 ， 部 署 容 控制 层 负责 工作 流 设 计 API 接口 和 工作 流 执 行 API 接口 ， 
易 ， 支 持 跨 平台 应 用 的 协作 。 调 度 采 取 了 资源 预约 和 局 部 资源 主要 用 来 连接 用 户 在 图 形 化 的 浏览 器 客户 端 进行 可 视 编辑 和 运 
池 技 术 ， 支 持 多 种 资源 调度 算法 ， 具 有 流程 级 别 的 DAG 调度 — 行 控制 与 后 台 的 命令 实现 。 灵 活 而 强大 的 API 接口 设计 保证 了 
算法 , 可 有 效 提 升 流程 执行 效率 , 是 集成 多 类 软件 在 HPC 环境 ”平台 的 稳定 性 .业务 逻辑 层 则 描述 了 各 行业 领域 内 的 业务 逻辑 ， 
下 数值 模拟 和 数据 分 析 的 有 力 工具 。 比如 结构 力学 领域 的 建 模 -模拟 -可 视 分 析 流 程 ， 在 其 他 领域 比 
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如 生物 、 材 料 领域 ， 同 样 有 类 似 的 流程 ， 只 是 流程 的 结构 可 能 


不 尽 相 同 。 基 础 服务 


民 和 数据 层 是 平台 的 核心 实现 ， 基 础 服务 


擎 和 资源 调度 、 


层 提 供 了 组 件 管理 、 


流程 创建 、 流 程 执行 引 


DA 


用 代理 等 功能 ， 数 据 


层 则 管理 各 类 元 数据 。HSWAP 的 特色 功 


能 包括 远程 应 | 


互 , 同一 工作 流 实例 
组 件 化 本 


的 软件 应 


软件 界面 失 
支持 跨 平 台 (Windows、Linux 等 远程 系统 ) 
tC 置 和 协作 运行 ， 灵 活 的 运行 控制 策略 等 。 


送 至 内 其 浏览 器 客户 端 支持 实时 交 


户 浏览 器 端 


控制 层 
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高 性 能 计算 机 集群 (Win/Linux 多 平台 ) 


2 HSWAP 平台 的 架构 设计 


2 “异步 并 发 的 工作 流 引 警 设计 
平台 的 科学 工作 流 以 有 向 无 环 图 表示 。 工 作 流 引擎 设计 的 


组 件 的 运行 状态 ， 


目的 是 提供 流程 的 执行 逻辑 ， 驱 动 流程 运行 ， 监 控 流程 中 任务 
及 时 反馈 用 


户 的 操作 指令 。 引 警 与 其 他 模块 


之 间 的 关系 如 图 


3 所 示 ， 用 户 


层 给 引擎 发 送 启动 项 目 、 改 变 运 


行 策略 、 和 暂停 、 终 止 工作 流 运行 等 指令 ， 引 擎 响应 相关 命令 ， 


启动 项 
流程 解析 和 执 


算 机 上 的 应 用 代理 服务 器 ， 应 月 
将 状态 及 时 反馈 给 引擎 。 工 作 流 中 任务 的 依赖 关系 


进行 相关 操作 ， 并 将 流程 中 
目 ， 则 引擎 会 从 流程 创建 数据 库 取 得 抽象 工作 流 ， 
行 。 执 行 任 务 组 件 时 ， 将 子 任务 投递 到 高 性 能 计 


任务 状态 及 时 反馈 给 用 户 。 如 用 户 


进行 


任务 运行 状态 ， 
引擎 负责 


月 代理 会 监控 了 


解释 和 处 理 ， 相 关 数 据 的 复制 和 迁移 也 首先 由 引擎 触发 ， 然 后 
交 给 数据 管理 模块 处 理 。 
| PE 
m TARIE " 
"E | eme | wan (IE epit 
HE E A " i 据 
a4 
ZN V E 
| d ( 应 用 代理 ) 
| 高 性 能 计算 资源 
图 3 工作 流 引擎 与 其 它 模块 的 联系 
由 于 引擎 一 方面 要 负责 监控 任务 组 件 的 执行 ， 另 一 方面 要 
及 时 处 理 用 户 在 前 端的 操作 指令 ， 所 以 引擎 的 设计 必然 要 采用 


发 的 模式 ， 又 


性 ， 而 某 些 操作 所 需 时 间 较 长 ， 为 提高 响应 时 间 ， 改 善 用 


IT 


TH 


户 操 作 和 组 件 状 态 改变 等 存在 紧密 相关 
abs 
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和 资源 调度 


验 ， 故 采 | 


] 异 步 模式 设计 。 


异步 并 发 的 工作 流 引擎 


一 个 事件 


循环 主体 构成 ， 图 4 是 其 
作 流 实例 ， 进 行 DAG MF 


排序 、 


基本 运行 架构 的 示意 图 ， 围 绕 一 个 工 
可 投 作 业 产 生 、 资 源 调度 、 
作业 投递 等 一 系列 步骤 。 在 各 个 阶段 之 间 都 可 响应 外 部 API 调 
用 ， 包 括 运行 控制 API 和 作业 状态 设置 API， 前 者 由 用 


户 界 面 


前 端 触 发 ， 后 者 由 服务 端 应 用 代理 触发 。 
外 部 API 调用 ,根据 当前 作业 运行 状态 和 
应 的 动作 。 


运行 控制 AP 


V 


作 流 引擎 的 运行 架构 
Python 编码 实现 ， 借 助 异步 IO 
RPC 库 实 现 外 部 API 调用 接口 ,将 


引擎 


和 高 性 能 


作 流 引擎 及 时 响应 
i 程 状态 决定 采取 相 


实现 事件 循环 功能 
引擎 与 平台 的 其 他 


模块 进行 解 厢 ， 具 有 独立 运行 的 特性 ， 可 作为 独立 进程 进行 部 


署 ， 


支持 
3 ”基于 工作 流 的 资源 调度 


3.1 HSWAP 资源 调度 方案 


发 部 署 ， 以 支持 多 工作 流 多 引擎 并 行 执 


行 。 


在 超 算 环境 中 , 作为 系统 软件 都 部 署 有 一 套 作业 调度 系统 ， 


比如 PBS、LSF 或 者 SLURM 等 ， 用 来 进行 
任务 分 配 所 需 资源 。 一 般 情况 下 ， 用 
调度 系统 分 别 调度 ， 分 别 经 历 投递 、 排 队 、 
结束 等 状态 。 在 科学 工作 流 的 运行 环境 中 ， 
业 中 的 任务 具有 相关 性 ， 它 们 之 间 可 能 是 并 
行 的 数据 依赖 或 控制 依赖 关系 。 若 不 考虑 这 
个 任务 直接 投递 到 超 算 环境 的 调度 系统 中 ， 


三 


[EC 


作业 调度 ， 为 计算 
作业 相互 独立 ， 被 
启动 运行 、 运 行 、 
处 于 一 个 工作 流 作 
行 的 ， 也 可 能 是 串 
些 关 系 ， 单 独 将 每 
则 每 个 任务 都 可 能 


经 历 较 长 的 排队 等 待 时 间 ， 而 且 后 续 任 务 只 


在 其 前 序 任务 完 


成 后 才 开 始 投递 ， 造 成 流程 整体 执行 时 间 过 


题 。 


在 科学 工作 流 的 应 


Ma 


中 ,由 于 调度 时 已 知 任务 的 依赖 关系 ， 


长 ， 效 率 低下 的 问 


如 何 充分 利用 这 些 关 系 提高 调度 性 能 值得 太 
通过 资源 预约 和 池 化 技术 以 及 高 效 的 DAG 
流 的 高 效 运 行 。 


究 。 在 HSWAP 中 ， 
调度 算法 


保证 工作 


HSWAP 的 资源 调度 过 程 如 图 $ 所 示 。 


其 中 应 用 代理 的 目 


的 是 提供 任务 执行 和 监控 的 统一 接口 。 平 台 
性 能 计算 软 硬 件 环境 建立 了 一 个 HSWAP 的 


度 器 Scheduler 配置 支撑 调度 算法 库 〈 图 中 中 步 )。 配 置 后 用 户 


的 工作 流 任务 调度 时 使 用 动态 资源 池 中 的 资 


代理 和 高 


基于 应 用 


源 ， 调 度 器 则 使 用 
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调度 算法 库 中 的 调度 算法 。 
用 户 工 作 流 完整 信息 传递 给 
调度 规划 器 从 动态 资源 } 
合 条 件 的 资源 和 工作 流 信息 传递 给 
调用 具体 算法 ， 将 调度 结果 传 回 给 
ea 作 流 引擎 〈 图 
通过 应 用 代理 投递 到 


当 用 
调度 
也 获得 可 上 


户 执行 工作 流 引 擎 时 ， 引 擎 将 
规划 器 Planner (图 中 人 @@ 步 )， 
j 资 源 ， 进 行 资 源 筛 查 ， 将 符 
从 调度 器 〈 图 中 国 -@ 步 )。 调 
图 中 @ 步 )， 
中 @ 步 )。 工 作 流 引擎 根据 
相应 的 超 算 资源 (图 中 人 @®)- 


给 Planner ( 


李 于 锋 ， 


Min-Min 算法 和 Max-Min 算法 没有 考虑 DAG 


于 2002 年 提 


rank 值 作 为 优先 级 进行 


只 是 对 就 绪 任 务 和 可 | 
出 HEFT 算法 , 使 月 
就 绪 任 


hin 


等 : 超 算 环境 科学 工作 流 应 用 平台 的 弛 


行 后 


常 | 


的 启发 调度 算法 ， 
Shi 等 人 U9 建立 了 工作 流 的 


提出 后 一 直 被 作 


aXiv 合 作 期 刊 


ERE AR 


图 本 身 的 特征 ， 


局 部 决策 。Topcuoglu 4 AP! 
H DAG 图 中 任 


务 节 点 的 upward 
取得 很 好 的 效果 ， 是 
为 算法 比较 的 标杆 。 


向 无 环 图 表 


图 表示 ， 


。 最 后 , 应 用 代理 在 实际 环境 中 


Engine m planner | scheduler 
i 
原油 | NIE 
i 


Fo Wes 
| Hpc 硬 件 和 软件 环境 ) 


启动 任务 运行 并 监控 运行 


þa 


态 资源 
S $3 
不 


图 5 
资源 池 化 与 预约 算法 
现 资 源 池 化 管理 ， 对 工作 流 运行 所 需 的 资源 进行 提前 预 
约 是 缩短 工作 流 作 业 中 所 有 任务 整体 完成 时 间 、 提 高 工作 流 执 
行 效率 的 有 效 途 径 。 

为 文 持 工 作 流 中 多 分 支 并 发 执行 ， 需 要 预约 充分 的 资源 以 
发 性 ， 但 从 资源 利用 率 的 角度 考虑 ， 为 避免 资源 闲置 和 
资源 浪费 ， 最 好 的 方式 是 工作 流 中 任务 之 间 能 够 复 用 资源 ， 特 
别 是 有 前 后 顺序 约束 的 任务 之 间 ， 以 期 使 用 最 少数 目的 资源 即 
可 满足 需求 。 

若 以 整体 预约 资源 建立 局 部 资源 池 ， 提 前 获得 资源 控制 权 
则 能 够 满足 工作 流 无 等 待 延迟 的 执行 。 在 实际 环境 中 通常 不 能 
满足 需求 ， 这 时 在 可 用 资源 中 预约 尽量 接近 整体 预约 池 大 小 的 


ui 


源 调度 过 程 


3.2 


提高 


资源 ， 在 执行 过 程 中 动态 改变 资源 池 ， 达 到 动态 调度 的 目的 ， 
相关 过 程 如 图 7 所 示 。 


整体 预约 算法 (make_plan); 

WA. 工作 流程 图 DAG， 图 中 任务 组 件 t 的 资源 需求 描述 reqltj， 可 用 资源 集合 R 

输出 : 工作 流 整体 需要 预约 的 资源 集合 Req_all 

1) 对 每 个 组 件 t， 计 算 满 足 该 组 件 调度 需求 的 资源 集合 eligiblelt)s 

2) 计算 流程 的 DAG 拓扑 排序 ; 

3) 设置 辅助 数组 availltj， 记 录 每 个 组 件 执行 完毕 后 释放 的 可 用 资源 集合 ; 

4) fortin 拓扑 排序 后 的 组 件 列 表 : 

5)  forpretin 组 件 t 的 所 有 前 驱 组 件 列表 : 

6) res from ancestor = avail|pre t N eligibleit); 

7) if res from ancestor PE: 

8) 3$ regit) 中 各 类 别 资源 需求 数量 ， 从 res from ancestor 中 尽 可 能 多 的 分 配 ， 
之 后 ， 更 新 regt) 中 资源 数量 ， 更 新 availlpre_t) 中 剩余 可 用 资源 数量 ; 

9) if reqtt) 为 空 ， 则 分 配 成 功 ， 记 录 下 availlt) 为 已 分 配 资源 ， 转 4)， 

10) Req all-Req all+reqlt) 中 资源 需求 量 , 更 新 availlt 油 组 。 


图 6 HSWAP 的 资源 预约 算法 
调度 算法 分 析 

于 调度 问题 具有 NP- 难 的 复杂 度 ， 大 部 分 研究 集中 在 启 
发 式 算法 的 提出 和 改进 上 ， 还 有 很 多 研究 集中 在 网 格 和 云 等 分 
布 式 计算 基础 设施 上 考虑 成 本 优化 以 及 具备 容错 功能 的 动态 自 
适应 调度 。Min-Min 算法 是 最 简单 常用 的 启发 式 算法 ， 思 想 是 
最 快 完成 的 任务 优先 调度 ; Max-Min 算法 是 在 每 个 任务 的 最 小 
完成 时 间 (对 所 有 可 用 资源 ) 中 选择 最 大 的 那个 任务 来 调度 。 


3.3 


著 差 异 的 情况 下 改进 了 HEFT 算法 , pen 


从 关键 路 径 的 动态 性 出 发 提出 DCP 算法 , 采用 动态 关键 路 径 和 


DCP 扩展 到 异 构 计算 
详细 描述 。1997 年 Chan 等 


度 低 的 HDSC 算法 ， 


该 算法 源 自 


建立 了 任务 间 数 据 通 信 的 模型 ， 


示 和 资源 的 无 向 有 权 
在 处 理 器 能 力 有 显 


插入 时 间 覃 的 方式 进行 调度 , Rahman? 57 
环境 ， 并 且 在 文中 给 


H AEFT 算法 。 


Kwok!!! 


SIS S REPE RA 
出 了 多 种 经 典 算 法 的 


H WH J 
环境 提出 了 一 种 复杂 


等 人 141 针对 异 构 ] 
1994 


年 Tao Yang 提出 的 


Dominant Sequence Clustering 算法 ， 思 想 是 针对 调度 图 的 关键 


路 径 进行 


聚 类 ， 进 而 优化 调度 方案 。George05 针 对 


流 的 调度 ， 
使 


M 


具 和 SLURM 


能 耗 的 调度 方法 


的 调 


以 最 少 完成 时 间 为 
了 提前 预 留 资源 
资源 管理 
o Chen £ ANTH 


的 机 于 
和 调度 系统 


|, Patil 45 AU6 


标 提出 了 MMGWS 算法 


究 了 在 HPC 环 


J 使 用 了 Maui 调度 工 
境 下 的 考虑 


Zu 


度 如 何 影响 先前 的 预约 资源 而 进行 自 


Jù 


务实 际 执行 时 间 与 估计 不 符 造 成 的 相关 问题 


计算 环境 
调度 ， 


流程 启动 执行 


下 的 工作 流 调 
以 及 静态 计划 和 去 


». 


整体 预约 
>| 


彦 进行 了 综述 ， 介 绍 了 静态 调 


建立 动态 池 k 


了 在 预 留 机 制 


， 后 续 作 业 
动 调整 ， 并 考虑 到 任 
题 。Wu 等 人 (9 对 云 
度 和 动态 


TEI. 


申请 M 个 资源 ， 返 


扩充 局 部 池 


回 N(<M) 个 资源 


I 
1 
i 
i 
i 
f 
有 
i 
申请 MI1 个 资源 ， 返 | 
FINIGMDA SER | 
Hd 

i 

I 

i 

ll 

i 

1 

1 

1 

1 

1 


i 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| I 
| DLE 
组 件 启动 执 和 
RAT, T parana h 
| | 执行 组 件 任务 1 | 
I I 
| ! 组 件 执行 完毕 回收 组 件 的 资源 mcasg 回收 到 局 部 池 ， 以 备 后 用 。 | 
| | T | 
| ! | | | | 
上 一- Lit Haaa in | | i 
b ESN RE E m t mt mm A 同 ^ E 1 I 
1 上 执行 组 件 任务 2 ! 加 二 二 二 二 >» £ T 1 1 
qon UTE m ur rd ! ! 
ara MN Lu E | 
I | T | 
1 «SAXA REEI 
| | 停 上 /修改 流程 EEE Lo cl una EE e | 
由 j E me TA / we j 
图 7 资源 池 化 管理 与 工作 流 执行 
E B ` 4 PN 
如 今 的 超 算 中 心 或 数据 中 心 都 具有 多 套 计算 资源 系统 ， 异 


构 特 征明 显 。 工 作 流 中 任务 对 资源 的 需求 也 各 不 相同 。 本 文 对 


56] 


"m 


18 Min-Min, Max-Min, HEFT, HDSC, DCP 等 五 种 


法 进行 了 异 构 环 境 下 的 实现 与 性 能 


测试 ， 


启发 式 算 
分 析 了 它们 在 分 布 式 


异 构 特征 资源 上 进行 多 种 类 型 DAG 调度 的 性 能 。 


针对 不 同 的 DAG ifl 


E， 本 次 实验 选 


取 了 任务 数 和 计算 通 


信 比 两 个 特征 ， 每 种 组 合 随 机 生成 25 个 DAG， 每 种 算法 对 这 


些 


图 进行 平均 性 能 


比较 。 判 断 标准 为 NSL (normalized 


scheduling length) , 即 以 DAG 的 关键 路 径 在 最 快 资源 上 的 执行 


时 间 为 基准 


，NSL 定义 为 算法 对 图 的 调度 长 度 与 图 的 基 ; 
比值 。 显 然 ，NSL 的 最 小 值 为 1， 


值 越 小 


faz 
好 。 模 


则 算法 性 能 


有 5 台 机 器 组 成 ， 性 


到 8-10 所 示 ， 其 
daggen091， 资 源 环境 借 


情况 。 通信 计算 比 CCR 分 为 三 种 类 型 
度 为 O(N”); 类 型 IL 定义 的 人 各 


相对 计算 量 较 大 ， 类 型 II 则 较 小 。 对 三 种 CCR, 


W^ cluster 组 成 的 混 


源 环境 ， 每 个 cluster 
EREK, cluster 内 和 cluster 之 间 的 机 器 通 


辐 的 大 小 《任务 个 数 ) 为 10~100， 间隔 10 取 值 ， 共 10 种 


里 的 数据 规模 


来 自 随机 图 生成 工 
拟 ，SimGrid 是 一 


为 SN ， 则 类 型 1 定义 的 任务 计算 复杂 
F 务 计算 复杂 度 为 OON?logz(N2); 
类 型 II 定义 的 任务 计算 复杂 度 为 OO)。 类 型 工 的 数据 通信 量 
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从 图 中 可 以 得 出 如 下 结论 : a? HEFT. DCP 与 HDSC 算法 
表现 优 于 Min-Min 和 Max-Min 算法 ,表明 考虑 了 关键 路 径 的 算 
法 性 能 更 好 ，HEFT 算法 平均 性 能 较 好 ， 证 实 了 其 被 广泛 使 用 
的 原因 ; bo 在 计算 密集 型 应 用 中 (如 图 9-100, HDSC 算法 表 
现 最 好 ; c) DOP 算法 适用 于 通信 和 量 较 大 而 计算 量 小 (如 CCR 
类 型 D 的 DAG 调度, 而 对 于 通信 量 小 而 计算 量 比较 大 的 情况 ， 
对 于 大 规模 工作 流 调度 性 能 略 有 下 降 。 另 外 图 中 曲线 整体 均 呈 
现 上 升 趋势 〈 虽 有 波动 )， 这 是 因为 在 大 规模 DAG 工作 流 调度 


实验 模拟 结 


时 ， 由 于 启发 式 调度 局 部 决策 ， 造 成 性 能 与 理想 的 基准 差距 累 


以 模拟 MPI 程序 


个 通用 的 分 布 式 系统 模拟 器 ， 可 模拟 网 格 和 云 资 源 环境 ， 也 本 
性 能 计算 资源 系统 。 采 用 


KANE 


C/C++ 语言 


度 算法 Min-Min, Max-Min, HEFT, HDSC, DCP. 


基于 SimGrid 提供 的 资源 环 


ue 


则 试 了 五 种 算法 在 各 类 DAG 


卉 表示 以 及 主机 和 任务 的 封装 APL， 


到 上 的 调度 性 能 。 


NSL 


5 
MINMIN —— 


MAXMIN 一 一 
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图 8 CCR 为 类 型 1 时 算法 性 


5 
MINMIN —— 


图 9 CCR 为 类 型 工时 算法 性 能 


90 100 


NSL 


MINMIN —— 


Ed —  — 


10 20 30 


图 10 CCR 为 类 型 II 时 算法 性 


EC 


计 而 来 。 图 8 中 的 NSL 值 一 般 大 于 图 9、10 中 的 值 ， 这 是 因为 
图 9 的 CCR 278 IL 和 图 10 的 类 型 II 对 应 于 计算 密集 型 工作 
流 ， 通 信 数 据 量 较 小 〈 或 者 等 价 的 具有 高 带宽 的 通信 资源 ) 的 
情况 ; 而 图 8 的 CCR 类 型 对 应 的 数据 传输 较 多 或 者 通信 和 量 较 
大 。 而 计算 NSL 所 采取 的 基准 并 不 考虑 数据 通信 ， 只 考虑 关键 
路 径 上 的 计算 任务 在 无 限 多 具有 最 快 处 理 器 的 资源 上 的 执行 时 
间 ， 当 数据 传输 较 多 或 数据 量 较 大 时 ， 实 际 调度 的 NSL 必然 增 
Ks 

HDSC 算法 使 用 了 回溯 技巧 和 聚 类 技术 ， 减 少 了 数据 通信 
时 间 ， 提 升 了 调度 效率 。 但 其 只 采用 了 回溯 一 层 和 聚 类 相 邻 单 
亲 父 子 任务 ， 还 有 优化 空间 ， 这 对 于 开发 新 的 调度 算法 有 启示 
意义 。 另 外 HPC 科学 工作 流 在 大 规模 计算 资源 上 的 调度 ,可 以 
借鉴 在 网 格 和 云 上 调度 的 优秀 方法 和 最 新 算法 ， 比 如 资源 预约 
计 费 策略 和 动态 自 适应 调度 等 ， 这 方面 的 研究 将 有 效 提升 超 算 
资源 利用 率 和 工作 流 执行 效率 。 


4 ARE 


本 文 介绍 了 超 算 连 员 性 计算 平台 HSWAP 及 其 工作 流 引 警 
设计 和 资源 调度 方案 。 平 台 一 方面 为 用 户 屏蔽 高 性 能 计算 底层 
软 硬 件 资源 使 用 的 复杂 度 ;， 男 一 方面 为 用 户 提供 自 定义 流程 、 

流程 模板 、 自 定义 任务 属性 等 功能 , 极 大 地 提高 用 户 工作 效率 。 
异步 并 发 的 工作 流 引 擎 设计 能 同时 满足 用 户 交 互 控 制 和 工作 流 
运行 时 控制 的 需求 。 资 源 调度 模块 采用 了 资源 池 化 技术 ， 并 采 
j 资 源 调度 算法 与 调度 规划 器 、 引 擎 分 离 的 设计 ， 有 利于 调度 
算法 的 新 增 扩 展 。 在 异 构 环境 下 实现 了 常用 5 种 启发 式 调 度 算 
法 ， 并 测试 分 析 了 它们 在 DAG 流程 调度 时 的 性 能 。 目 前 实现 
的 调度 算法 依赖 于 任务 的 估计 时 间 ， 如 何 准确 估计 任务 所 需 时 
间 尚 需 进一步 研究 ， 例 如 开展 基于 性 能 历史 数据 库 利用 机 器 学 
习 等 技术 给 出 任务 运行 时 间 估 计 的 工作 。 调 度 方面 值得 研究 的 
男 一 方向 是 任务 预 估 时 间 误 差 对 调度 算法 的 影响 和 自 适 应 调整 
策略 。 
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